2017-AAAIAI-Robust Loss Functions under Label Noise for Deep Neural Networks.

Noisy Labelsについての全体的なものはこちらを参照。 📄2020-Survey-A Survey of Label-noise Representation Learning: Past, Present and Future

データのラベルをきれいにする Data Cleaningでは、間違っていると思われるラベルを除去する。
未知の真のラベルを隠れ変数として扱い、それを得るための生成モデルを構築する。
(この論文では)損失関数だけを変更して、ノイズが来てもうまく学習できるような損失関数を選ぶ。
- 01損失は、対称的なラベルノイズに強いらしい。

先行研究はBinary Classificationについてだったが、この論文ではMulti-class Classificationについて考える。

問題設定

データは $\mathbf{x} \in \mathbb{R}^d$ で、ラベルは $y \in \{1, \cdots, k \}$ 。
識別器は $f : \mathbb{R}^d \to \mathbb{R}^k$ である。
損失関数は $L: \mathbb{R}^k \times Y \to \mathbb{R}^+$ である。
以下のような目標関数の最小化を目指すのが学習である。

R_L(f) = \mathbb{E}_{(\mathbf{x}, y)} [L(f(\mathbf{x}), y)]

Noiseの定義

各データが、i.i.d.で一定の確率で別のラベルに置き換わることによって、Noisy Labelな問題設定が起きる。ノイズの置き換えのやり方は、対称、非対称の二種類がある。前述のサーベイ参照。

$\sum_{i \ne j} \bar{\eta}_{\mathbf{x} j} = \eta_\mathbf{x}$ 。間違う率の合算はこのようにおく。Ground Truthのラベルは $y_{\mathbf{x}}$ とする。

このフレームワークで、

対称な損失は $\eta_{\mathbf{x}} = \eta, \forall j \neq y_{\mathbf{x}} \bar{\eta}_{\mathbf{x}j} = \eta / (k - 1)$ となる。

そして、ノイズがあるときの最適化というのは以下のようになる。

それぞれの全域最適学習器 $f^*, f^~_\eta$ について、両方の学習器の予測を同じ $\text{pred}$ に入れて、それで識別をしてもらう(GANのDiscriminatorみたい)。それで、理論上完全な分離ができるのであれば、Noise Tolerantである。

理論的な分析結果

まず、損失関数が対称的であるというのを以下のように定義する。

どのような識別器、データに対しても、予測されたすべてのクラスについての損失を足し合わせると、定数になる。

\sum_{i=1}^k L(f(\mathbf{x}), i) = C, \forall \mathbf{x} \in X, \forall f

定理1

多クラス分類において、対称的な損失は $\eta < (1 - 1/k)$ であれば、対称的、一様的なラベルノイズに強い。

$\eta$ はラベルを間違えてしまう確率の合計。これが全クラス数 $k$ に依存した $1-1/k$ 以下、つまりほとんどの時である。

例として、Binary Classificationでは、5割以上間違えればどうがんばってもNoisy Labelの問題は解けないが、それ以下の間違え率ならば解ける。

証明

クリアなデータの時の損失は、 $R_L(f) = \mathbb{E}_{\mathbf{x}, y_{\mathbf{x}}} [L(f(\mathbf{x}), y_\mathbf{x})]$ である。

2行目は、条件付確率の分解をしている。 $p(\mathbf{x}, \hat{y}_\mathbf{x}) = p(\mathbf{x}) p(y_\mathbf{x}|\mathbf{x}) p(\hat{y}_\mathbf{x} | \mathbf{x}, y_\mathbf{x})$ として、ラベルをNoisyなものに置き換えている。
- 上のような分解では、右辺は結局 $p(\mathbf{x}, y_\mathbf{x}, \hat{y}_\mathbf{x})$ となるが、ノイズラベル $\hat{y}_\mathbf{x}$ はサンプルの同時分布 $p(\mathbf{x}, y_\mathbf{x})$ に従い生成するので、結局依存関係を持つ $\hat{y}_\mathbf{x}$ を同時分布に組み込んだだけ。
3行目は対称ノイズの定義で展開している。
4行目は第一項は通常の $p(\mathbf{x}, y)$ についての期待値の積分で、これは通常の損失 $R_L(f)$ である。第二項は対称的な損失であれば、合算した $C$ から正解を引いたものに等しい。
- 対称的という条件は、間違ったときの損失の上界を抑えるためにある。
5行目は項をまとめると得られる。